Estatística Básica

(Muita Estatística pra pouco tempo)

Carolina Musso

Programa de Residência Multiprofissional em Vigilância em Saúde (PRMVS)

2024-11-26

Probabilidade …

  • Uma coisa esquisita …

Problema Monty Hall

Probelma dos aniversários

Quantas pessoas são necessárias em um grupo para que a probabilidade de pelo menos duas delas compartilharem o mesmo aniversário seja maior que 50%?

  • 23 pessoas

Porque é esquisito?

  • Probabilidades Viés de confirmação: focamos no que confirma nossas expectativas.
  • Lógica anecdótica: eventos raros moldam nossa percepção de frequência.
  • Pensamento de Curto Prazo Tendemos a exagerar eventos recentes e ignorar tendências de longo prazo.

Mas!

Compreender probabilidades reduz erros ao tomar decisões informadas.

Introdução à Probabilidade

  • Uma função \(\mathcal{P}\), definida na \(\sigma\) \(\mathcal{A}\) de subconjuntos de \(\Omega\),e com valores entre [0,1], édis uma probabilidade se sasisfaz os axiomas de komolgorov:

  • P(\(\omega\)) = 1;

  • Para todo subconjunto de A \(\in \mathcal{A} \ge\);

  • Mara toda sequência de eventos disjuntos \(A_1, A_2, A_3, ... \in \mathcal{A}\) temos que:

\[ P(\bigcup_{i=1}^\infty A_i = \sum_{i=1}^\infty P(A_i) \] - A trinca (\(\Omega\), \(\mathcal{A}\), \(\mathcal{P}\)) é chamada de espaço de probabilidade.

Para nós aqui . . .

A probabilidade de um evento ( A ) é definida como a frequência com que esse evento ocorre em relação ao total de possibilidades. Ela é sempre um valor entre 0 e 1, onde:

\[ P(A) = \frac{\text{número de vezes que } A \text{ ocorre}}{\text{número total de casos possíveis}} \]

Por exemplo:

  • P(A) = 0: o evento A nunca ocorre.
  • P(A) = 1: o evento A ocorre em todos os casos.
  • P(A) = 0,5: o evento A ocorre 50% das vezes.

Exemplo

  • Probabilidade de 0,1 de uma pessoa ser O-negativo.

  • Se eu observar 10, espero encontrar uma pessoa O-negativo

  • Isso não significa que eu vou encontrar uma pessoa O-negativo, mas a medida que eu observar mais pessoas, a probabilidade encontrarei cerca de 10% de pessoas O-negativo.

  • Não sabemos quais serão essas pessoas, mas temos a estimativa para o grupo.

Distribuições de Probabilidade

  • Modela eventos

Distribuição Normal

  • Modela eventos contínuos que tendem a se concentrar simetricamente ao redor de uma média (sino).

  • Exemplo: Altura, peso …

Distribuição Binomial

  • Modela eventos discretos com duas possíveis respostas (sucesso ou fracasso).

  • Exemplo: Lançamento de uma moeda (cara ou coroa).

Outros tipos de distribuições

  • Poisson: Modela eventos em um intervalo de tempo
  • Geométrica
  • Hipergeométrica
  • Exponencial
  • Gama
  • Beta
  • Cauchy

População, Amostra e Métodos de Amostragem

  • População: Conjunto total de indivíduos de interesse.
  • Amostra: Subconjunto da população usado para realizar inferências.
# Exemplo: Criar uma amostra aleatória simples
populacao <- rnorm(1000, 
                   mean = 70, 
                   sd = 10)


amostra <- sample(populacao, size = 100)
mean(amostra)
[1] 71.84195

Tipos de Amostragem

  • Amostragem Aleatória Simples: Todos os indivíduos têm a mesma chance de serem selecionados.

  • Amostragem Estratificada: Divide a população em grupos homogêneos e seleciona aleatoriamente indivíduos de cada grupo.

  • Amostragem por Conglomerados (Cluster): Divide a população em grupos não homogêneos e seleciona aleatoriamente alguns grupos.

Inferência Estatística

Extrair conclusões sobre uma população a partir de uma amostra.

Distribuição Amostral e Erro Padrão

  • Distribuição Amostral da média: Distribuição das médias das amostras retiradas de uma população.

  • Erro Padrão: Mede a variabilidade da média das amostras.

  • Se sei a distribuição, consigo criar um intervalo de confiança.

  • Teorema do Limite Central: A distribuição amostral da média se aproxima de uma distribuição normal à medida que o tamanho da amostra aumenta.

Exemplo Binomial

Exemplo fictício

  • Um censo no DF nos anos 90:

    • O nível de colesterol médio 190 mg/dL.

    • Ou seja \(C_{DF} \sim N(\mu_{0} = 190, \sigma^2_{0} = 30)\)

Motivação

  • Desconfiamos que esse nível de colesterol aumentou.

    • Em 2024, amostra aleatória de mil pessoas.
  • \(\bar{x}\) = 220 mg/dL, e a variância não mudou.

    • Será que essa média é mesmo maior que meu valor de referência (média 190)?
    • Ou será que foi por acaso?

Exemplo fictício

Distribuição Amostral da Média

  • Não sabemos a distribuição da população, mas sabemos que a distribuição amostral da média é normal.

Intervalo de Confiança

Expressa a incerteza em uma estimativa. Exemplo: “Estamos 95% confiantes de que a média populacional está entre os limites do intervalo.”

  • Não é o mesmo que a probabilidade de um evento ocorrer.

Intervalos de Confiança

Se repetirmos o experimento infinitas vezes e calcularmos um IC para cada amostra, 95% desses intervalos incluirão a verdadeira média populacional (\(\mu\)) Ou seja:

  • O IC de 95% não diz que a média populacional tem 95% de probabilidade de estar no intervalo calculado a partir de UMA amostra específica. Pelo contrário, a média é fixa (determinística) no modelo frequentista, e o intervalo varia de experimento para experimento. A incerteza está no processo de amostragem, não no parâmetro

Conceito

  • O intervalo de confiança (IC) fornece uma faixa de valores dentro da qual acreditamos que um parâmetro populacional está localizado, com uma certa confiança.
  • Geralmente usamos um nível de confiança de 95% ou 99%.

Interpretação

[1] 214.2177 225.9774
  • Com 95% de confiança, acreditamos que a média populacional está entre 46,08 e 53,92.
  • O intervalo reflete a incerteza devido ao uso de uma amostra.

Qual a intuição do teste de hipótese

  • Queremos tirar conclusões sem ter acesso a toda a informação.
    • Nunca terei certeza
    • Qual a chance de, ao acaso, eu ter selecionado justamente as pessoas mais ansiosas?
    • Tirar uma conclusão sabendo essa “incerteza”.

Formulação de um teste de hipótese

  • Hipótese Nula (\(H_0\)): É a hipótese inicial, frequentemente assumindo que não há efeito ou diferença significativa.

  • Hipótese Alternativa (\(H_1\) ou \(H_a\)): É a hipótese que se quer testar, indicando a presença de um efeito ou diferença significativa.

\(H_0: \mu_{1} = \mu_{0} = 190\)

\(H_1: \mu_{1} > \mu_{0} = 190\)

Como testamos essa hipótese?

  • Temos que estabelecer um critério.

  • O quanto estamos dispostos a “errar”?

    • Dado que \(H_0\) é verdadeira.
  • Nível de significância \(\alpha\)

  • \(\alpha=0.05\) é um dos mais comuns.

Nível de significância de 5%.

  • Parece uma chance baixa o suficiente?

Tipos de Erro que posso cometer

Rejeita H0 Não-rejeita H0
H0 verd. Erro tipo I Correto!
H0 falsa Correto! Erro tipo II

Na “mão”

  • Precisaremos calcular algum valor
  • Normal não tem fórmula fechada.
  • Temos que padronizar!
  • Calcular alguma estatística.

O que já sabemos?

  • Distribuição amostral da média \(\bar{x} \sim N(\mu, \frac{\sigma^2}{n})\)
  • Uma amostra de uma distribuição normal, (ou grande o suficiente), e que eu conheço a variância populacional:

Para padronizar

\[Z = \frac{(\bar{x} - \mu_{nula})}{\frac{\sigma}{\sqrt{n}}} \sim N(0,1)\]

  • Para tirar a conclusão

    • Olhar na Tabela
    • Usar algum software

Execute o teste em algum software

  • R, STATA, SPSS, Excel , Python…

  • Interprete o resultado


    Two-sample z-Test

data:  x and y
z = 7.5568, p-value = 4.13e-14
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 1.300323 2.211040
sample estimates:
mean of x mean of y 
 7.018182  5.262500 

Intervalo ABC

Várias possibilidades …

Diferenças entre grupos (paramétrico)

  • Teste Z
  • Teste T
  • ANOVA

Diferenças entre grupos (não parametrica)

  • Wilcoxon
  • Kruskal-Wallis

Associação (qualitativas)

  • Qui-quadrado
  • Fisher

Associação (quantitativas)

  • Correlação
  • Regressão*

Teste t de student

  • Geralmente não conhecemos a variância populacional (que o teste z pressupõe)
  • Paramétrico

Comparação de médias entre dois grupos

  • Vindos de uma distribuição normal OU
  • Amostras “grandes”
  • Robusto a desvios da normalidade

Exemplo Teste-t

Exemplo Teste-t


    Welch Two Sample t-test

data:  Idade by sex
t = -3.366, df = 555.9, p-value = 0.0008155
alternative hypothesis: true difference in means between group f and group m is not equal to 0
95 percent confidence interval:
 -5.146353 -1.353368
sample estimates:
mean in group f mean in group m 
       16.19699        19.44685 

Exemplo Teste-t

Características f, N = 3361 m, N = 3231 Valor p2
Idade 16 (10) 19 (15) <0.001
1 Média (Desvio Padrão)
2 Teste t com correção de Welch

Teste de Wilcoxon/Mann-Whitney

  • Não paramétrico, usa o ranqueamento dos dados
  • Costuma ser mais conservador.

Resultado


    Wilcoxon rank sum test with continuity correction

data:  Idade by sex
W = 49677, p-value = 0.06047
alternative hypothesis: true location shift is not equal to 0

Bootsatrap

Outra possibilidade de teste não paramétrico é bootstrap

ANOVA

  • Teste de comparação de médias entre 3 ou mais grupos
  • Testa se há ao menos uma diferença significativa entre os grupos
  • Paramétrico
  • Pressuponho normalidade, homocedasticidade, amostas independentes

Kruskal-Wallis

Não paramétrico, se não atender os pressupostos do ANOVA

Exemplo ANOVA

Exemplo ANOVA

             Df Sum Sq Mean Sq F value Pr(>F)    
hospital      2  16958    8479   51.68 <2e-16 ***
Residuals   672 110263     164                   
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
10 observations deleted due to missingness

Tipos de teste pos-hoc

Paramétrico

  • Teste t, com correção de bonferroni, …
    • Evitar aumento do risco de erro tipo I
  • Tukey
  • Scheffe

Não - Paramétrico

  • Dunn
  • Ajuste de Bonferroni
  • Nemenyi test

Testes de associação

  • Duas variáveis qualitativas
  • Qui-quadrado
    • Limitações quando n esperado < 5
  • Fisher
    • Alternativa ao qui-quadrado

Exemplo

  • Tabela de contigência
Características yes, N = 3331 no, N = 3261
sex

    f 185 (56%) 151 (46%)
    m 148 (44%) 175 (54%)
1 n (%)

Exemplo

Exemplo


    Pearson's Chi-squared test with Yates' continuity correction

data:  table(dado$sex, dado$fever)
X-squared = 5.2602, df = 1, p-value = 0.02182
Características yes, N = 3331 no, N = 3261 Valor p2
sex

0.018
    f 185 (56%) 151 (46%)
    m 148 (44%) 175 (54%)
1 n (%)
2 Teste qui-quadrado de independência

Correlação

  • Duas variáveis quantitativas

Paramétrico

  • Correlação de Pearson

Não - paramétrico

  • Correlação de Spearman
  • Correlação de Kendall

Exemplo Correlação

Exemplo Correlação


    Kendall's rank correlation tau

data:  dado_raw$age and dado_raw$`wt (kg)`
z = 27.565, p-value < 2.2e-16
alternative hypothesis: true tau is not equal to 0
sample estimates:
     tau 
0.724547 

Você sabia?

“p-hacking”

Para aprofundamento

Bibliografia básica:

  • bussab Disponível: USP

Obrigada !